With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
translated by 谷歌翻译
语言的演变遵循逐渐变化的规则。语法,词汇和词汇语义转移会随着时间的推移而发生,导致了直觉的语言差距。因此,用不同的时代语言编写了大量文本,这为自然语言处理任务(例如单词分割和机器翻译)造成了障碍。尽管中文历史悠久,但以前的中国自然语言处理研究主要集中在特定时代的任务上。因此,我们为中文单词分割(CWS)提出了一个跨时代的学习框架,该框架使用开关记忆(SM)模块来合并ERA特定的语言知识。来自不同时代的四个语料库的实验表明,每个语料库的性能都显着提高。进一步的分析还表明,SM可以有效地将时代的知识整合到神经网络中。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
神经网络通常使预测依赖于数据集的虚假相关性,而不是感兴趣的任务的内在特性,面对分布外(OOD)测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差,它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置,但在训练和测试数据来自相同分布时,它们会降低。在本文中,我们提出了一般的贪婪去偏见学习框架(GGD),它贪婪地训练偏置模型和基础模型,如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例,从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力,但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程,并将课程正规化为由课程学习启发的GGD,这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验,对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型,其中具有现有知识和自组合偏置模型而无需先验知识。
translated by 谷歌翻译
直到最近,通过深度加强学习(DRL)已经实现了强大的机器人机器人。然而,为了高效地学习参数化的BipeDal行走,通常需要开发的参考资料,将性能限制为参考文献的性能。在本文中,我们建议设计用于从参考文献的模仿学习的自适应奖励功能。鼓励代理人模仿当其性能较低时的参考资料,同时在达到参考资料的限制时追求高性能。我们进一步证明,开发的参考资料可以通过在没有费力调整的情况下产生的低质量参考,并且只要他们能够提供先验的知识即可加快学习过程即可才能部署。
translated by 谷歌翻译
由于诸如CNN等尖端技术的应用,未经监测视频中的事件分析引起了不断的关注。作为基于CNN的模型的良好研究的属性,接收领域是用于测量由单个特征响应覆盖的空间范围的测量,这对于提高图像分类精度是至关重要的。在视频域中,实际上通过不同概念之间的复杂交互描述了视频事件语义,而他们的行为从一个视频差异差异,导致基于概念的分析难以准确的事件分类。为了模拟概念行为,我们研究基于概念的事件表示的时间概念接受领域,其编码不同中级概念的时间发生模式。因此,我们介绍了时间动态卷积(TDC),为基于概念的事件分析提供了更强的灵活性。 TDC可以根据不同的输入动态调整时间概念接收字段大小。值得注意的是,学习一组系数以使多个卷积的结果融合,具有提供各种时间概念接收场大小的不同内核宽度。根据输入视频并突出至关重要的概念,不同的系数可以产生适当和准确的时间概念接收场大小。基于TDC,我们提出了时间动态概念建模网络(TDCMN)来学习有效的未经监测视频分析的准确和完整的概念表示。 FCVID和ActivityNet上的实验结果表明,TDCMN在不同的输入上展示了适应性事件识别能力,并通过大边距提高基于概念的方法的事件识别性能。代码可在https://github.com/qzhb/tdcmn获得。
translated by 谷歌翻译
未来的活动预期是在Egocentric视觉中具有挑战性问题。作为标准的未来活动预期范式,递归序列预测遭受错误的累积。为了解决这个问题,我们提出了一个简单有效的自我监管的学习框架,旨在使中间表现为连续调节中间代表性,以产生表示(a)与先前观察到的对比的当前时间戳框架中的新颖信息内容和(b)反映其与先前观察到的帧的相关性。前者通过最小化对比损失来实现,并且后者可以通过动态重量机制来实现在观察到的内容中的信息帧中,具有当前帧的特征与观察到的帧之间的相似性比较。通过多任务学习可以进一步增强学习的最终视频表示,该多任务学习在目标活动标签上执行联合特征学习和自动检测到的动作和对象类令牌。在大多数自我传统视频数据集和两个第三人称视频数据集中,SRL在大多数情况下急剧表现出现有的现有最先进。通过实验性事实,还可以准确识别支持活动语义的行动和对象概念的实验性。
translated by 谷歌翻译
深度神经网络通常需要准确和大量注释,以在医学图像分割中实现出色的性能。单次分割和弱监督学习是有前途的研究方向,即通过仅从一个注释图像学习新类并利用粗标签来降低标签努力。以前的作品通常未能利用解剖结构并遭受阶级不平衡和低对比度问题。因此,我们为3D医学图像分割的创新框架提供了一次性和弱监督的设置。首先,提出了一种传播重建网络,以基于不同人体中的解剖模式类似的假设将来自注释体积的划痕投射到未标记的3D图像。然后,双级功能去噪模块旨在基于解剖结构和像素级别来改进涂鸦。在将涂鸦扩展到伪掩码后,我们可以使用嘈杂的标签培训策略培训新课程的分段模型。一个腹部的实验和一个头部和颈部CT数据集显示所提出的方法对最先进的方法获得显着改善,即使在严重的阶级不平衡和低对比度下也能够稳健地执行。
translated by 谷歌翻译
In this work, we study 3D object detection from RGB-D data in both indoor and outdoor scenes. While previous methods focus on images or 3D voxels, often obscuring natural 3D patterns and invariances of 3D data, we directly operate on raw point clouds by popping up RGB-D scans. However, a key challenge of this approach is how to efficiently localize objects in point clouds of large-scale scenes (region proposal). Instead of solely relying on 3D proposals, our method leverages both mature 2D object detectors and advanced 3D deep learning for object localization, achieving efficiency as well as high recall for even small objects. Benefited from learning directly in raw point clouds, our method is also able to precisely estimate 3D bounding boxes even under strong occlusion or with very sparse points. Evaluated on KITTI and SUN RGB-D 3D detection benchmarks, our method outperforms the state of the art by remarkable margins while having real-time capability. * Majority of the work done as an intern at Nuro, Inc. depth to point cloud 2D region (from CNN) to 3D frustum 3D box (from PointNet)
translated by 谷歌翻译
Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.
translated by 谷歌翻译